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摘要 : 


[ 目的 ] 探讨 目前 针对 书目 、 题 录 信 息 以 及 新 闻 网 页 、 博 客 等 新 兴 媒 体 开 展 的 数字 文本 自动 分 类 研究 中 


存在 的 主要 问题 和 可 能 的 解决 方向 。[ 文献 范围 ] 基 于 机 器 学 习 方法 的 自动 分 类 研究 领域 中 , 关于 特征 语义 转换 、 


特征 扩展 和 加 权 策略 等 方面 的 主要 研究 成 果 及 相关 文献 。 
后 发 展 方向 等 方面 进行 分 析 归 纳 。[ 结果 】 针 对 特征 语义 


【方法 ] 按照 主要 研究 、 关 键 技术 、 现 有 成 果 水 平和 今 
转换 、 特 征 扩展 和 加 权 策略 等 研究 领域 , 分 析 问 题 的 现 


象 和 原因 , 指出 当前 研究 在 文本 语义 表示 、 各 种 知识 库 的 利用 等 方面 存在 的 不 足 。[ 局 限 ] 没有 涉及 分 类 过 程 中 


分 类 算法 等 其 他 比较 成 熟 的 研究 领域 。【 结论 ] 今后 可 以 从 向 量 空间 模型 与 概率 主题 模型 相 


结合 


知识 库 并 提高 概念 相似 度 计算 能 力 、 
字 文 本 自动 分 类 的 性 能 。 
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多 种 加 权 策 略 构建 复合 加 权 表 示 模 型 等 方向 开展 分 类 研究 ,以 提高 数 
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1 基于 机 器 学 习 文 本 自动 分 类 概述 


基于 机 顺 学 习 文 本 自动 分 类 的 基本 原理 是 通过 对 
现 有 分 类 体系 及 其 已 分 类 文本 ( 称 为 样本 、 训 练 文本 、 
训练 集 文 本 或 训练 集 ) 的 内 容 进 行 统计 学 习 ， 以 掌握 各 
个 类 别 的 知识 或 模式 , 形成 分 类 模型 或 分 类 器 ,然后 
将 其 作用 于 符 分 类 文本 (也 称 为 测试 集 文本 或 测试 集 ， 
与 训练 集 共 同 构成 语料库 ) 根据 符 分 类 文本 的 内 容 与 
从 训练 集 获得 的 模式 进行 比较 来 确定 其 类 别 。 目 前 ， 
基于 机 器 学 习 自 动 分 类 的 主要 对 象 是 图 书 书目 信息 或 


期 刊 论文 题 录 信息 (简称 书目 信息 )， 新 闻 网 页 、 博 客 、 
微 博 等 新 兴 媒 体 的 各 种 数字 文本 资源 。 


基于 机 融 学 习 的 分 类 过 程 主要 包括 语料库 整理 、 
分 词 、 预 处 理 、 特 征 相关 处 理 、 文 本 表示 、 分 类 融 构 


通讯 作者 : 李湘 东 , ORCID: 0000-0001-9031-8482, E-mail: xli : 
动 分 类 研究 "(项 目 编号 : 15BTQ066) 的 研究 成 果 之 一 。 
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建 等 基本 环节 。 其 中 , 分 词 、 预 处 理 和 文本 表示 是 信 
息 检 索 、 主 题 分 析 、 聚 类 以 及 分 类 等 以 文本 为 主要 人 研 
究 对 象 的 相关 研究 中 都 需要 事先 解决 的 问题 , 已 有 学 
者 专门 对 其 进行 研究 , 且 取 得 比较 成 熟 的 研究 成 果 。 
特征 相关 处 理 环节 中 , 主要 是 针对 特征 选择 方法 的 研 
jt, 其 和 分 类 算法 的 研究 在 分 类 研究 中 都 比较 成 熟 。 
然而 ， 随 着 对 书目 信息 、 新 兴 媒体 等 分 类 对 象 的 文本 
特性 认识 的 深入 ,以 及 基于 向 量 空 间 模型 (Vector 
Space Model, VSM), LDA(Latent Dirichlet Allocation) 
概率 主题 模型 等 文本 表示 模型 等 相关 分 类 环节 的 进 一 
步 研究 , 发 现 单纯 地 依靠 传统 的 词 频 统计 且 忽 略 特征 
之 间 的 语义 关系 , 不 能 很 好 地 提高 最 终 的 分 类 性 能 ， 
而 考虑 文本 以 及 特征 之 间 的 同 义 、 宛 余 和 蕴涵 等 语义 
关系 , 借助 外 部 知识 库 、 语 义 词典 等 对 特征 进行 关联 
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扩充 、 语 义 建 模 等 , 能 有 效 改善 文本 分 类 性 能 。 同 时 ， ”方法 的 改进 已 经 不 能 满足 对 分 类 性 能 进一步 提高 的 需 
在 通过 特征 选择 方法 进行 特征 选取 时 也 暴露 出 一 些 影 ” 求 。 随 着 研究 的 深入 和 细 化 发 展 , 除 特 征 选 择 之 外 ,， 特 
响 分 类 性 能 的 问题 。 特 征 选 择 方法 从 语料库 的 分 词 结 ” 征 相 关 人 处 理 环节 需要 增加 特征 语义 转换 、 特 征 扩 展 、 
果 中 选取 能 够 代表 各 个 类 别 的 词 或 特征 , 但 却 不 考虑 。 加 权 策 略 等 研究 内 容 ， 如 表 1 所 示 。 这 些 也 是 目前 分 
词 或 特征 的 语义 信息 ,因此 , 这些 问 题 不 是 特征 选择 ”类 研究 中 比较 活跃 的 研究 领域 。 本 文 着 重 总 结 这 些 研 
方法 所 能 解决 的 , 针对 特征 的 选取 , 仅 限 于 特征 选择 。”” 究 领域 所 取得 的 主要 成 果 。 


表 1 特征 处 理 的 相关 问题 


现象 原因 ER 解决 办 法 
VSM 模型 以 词 作为 维度 ， 并 假定 文本 中 的 词 与 词 之 间 相互 ，， 、， a 
独立 。 以 VSM 模型 表示 的 文本 中 , 词 与 词 之 间 在 语义 上 的 MEAE EE RA 
同 义 、 近 义 、 多 义 以 及 词 之 间 上 下 位 等 多 重 语义 关系 未 能 特征 不 六 重要 | ， 都 可 能 会 
Pa i pm 为 在 训练 集 形 成 的 特征 空间 中 匹配 不 到 同 
人 一 个 词 而 无 法 参 入 到 分 类 中 ， 即 测试 集 的 ”特征 语 
不 同 作 者 、 不 同文 献 类 型 的 文本 之 间 ， 如 新 闻 网 页 、 博 客 、 特征 空间 与 训练 集 的 特征 空间 之 间 存 在 一 ” 义 转换 
微 博 等 新 兴 媒体 内 的 体例 结构 特点 ,与 书目 或 题 录 信 息 之 部 分 差异 ， 使 得 分 类 器 在 训练 集 的 特征 空 
间 在 写作 风格 和 用 词 习惯 等 方面 存在 较 大 区 别 , 这 使 得 同 间 工 学 习 到 的 知识 或 模式 不 能 很 好 地 应 用 
一 概念 在 不 同类 型 的 文本 上 可 采用 不 同 词汇 进行 表达 , 存 到 对 测试 集 文 本 的 类 别 预测 上 。 
在 同 义 、 多 义 以 及 近 义 等 问题 。 i 


特征 之 间 缺 乏 
语义 关联 


c 


TEUER, 意味 着 训练 集 形成 的 特征 空间 与 
测试 集 的 特征 空间 各 自 只 能 提供 少数 的 词 参 
入 匹配 ,这 既 使 分 类 器 难以 从 训练 集 形 成 较 
好 的 模式 , 也 会 降低 两 者 匹配 的 可 能 性 。 


书目 信息 通常 以 几 十 或 几 百 字 为 主 ,其 文本 长 度 与 微 博 、 
博客 等 新 兴 媒 体 的 文本 特性 相似 , 属于 短文 本 类 型 ， 存在 
特征 稀疏 、 噪 声 大 、 主 题 特征 不 明显 等 不 足 。 


特征 扩展 


TF. IDF 是 常用 的 最 基本 的 统计 量 ， 是 构建 文本 表示 模型 LL La " 
aeaa HEKER, TÆT VSM 或 LDA 等 模型 进行 文本 表示 时 ， 对 文本 中 来 自 标题 、 摘 要 、 正 文 、 作 者 关键 
特征 重要 程度 TF. IDF 都 是 以 文本 或 文本 集合 为 单位 进行 统计 ,未 考虑 词 等 不 同位 置 的 词 在 重要 程度 上 不 加 以 区 
反映 不 足 ee a 分 , 意味 着 对 书目 信息 、 新 兴 媒 体 等 文本 的 

SRAI UIE, RN E EXEAT 结构 化 特性 没有 加 以 有 效 利用 。 


位 置 或 词性 的 词 在 分 类 上 的 重要 程度 加 以 区 分 。 
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2 ”特征 语义 关联 研究 依据 是 否 使 用 外 部 的 第 三 方 资源 ,特征 扩展 的 方 
法 主要 有 基于 语料库 内 部 语义 关联 的 特征 扩展 方法 和 
特征 语义 关联 主要 包括 特征 扩展 和 特征 语义 转换 背 助 第 三 方 资源 的 特征 扩展 方法 , 表 2 列举 了 所 使 用 

两 个 方面 ,研究 内 容 虽 然 不 尽 相 同 , 但 使 用 的 关键 技 的 资源 以 及 该 种 方法 下 目前 使 用 的 主要 技术 。 


术 比 较 相 似 。 基于 语料库 内 部 语义 关联 的 特征 扩展 方法 是 直 
2.1 主要 研究 接 通 过 建立 训练 集 与 待 分 类 短文 本 之 间 的 关联 性 ， 
(1) 特征 扩展 对 待 分 类 的 短文 本 进行 特征 扩展 。 王 细微 等 [一 利用 


特征 扩展 的 目的 是 从 有 限 的 文本 内 容 中 寻 获 更 多 FP2Growth 算法 控 气 训练 集 特征 项 与 测试 集 特征 项 之 
的 语义 表达 ,以 扩大 训练 集 或 待 分 类 文本 各 自 的 特征 。” 间 的 共 现 关系 , 将 得 到 的 关联 规则 对 待 分 类 的 短文 本 
空间 ,使 两 者 之 间 具 备 有 更 多 共同 特征 的 可 能 。 中 的 特征 项 进行 特征 扩展 ; 胡 筋 军 等 外 利用 高 频 词 建 


表 2 特征 扩展 的 基本 方式 


特征 扩展 方法 使 用 的 资源 主要 技术 
关联 规则 
DERI TILES EA o (—" 
eH ARA 训练 集 和 测试 集 内 部 语义 关联 使 用 多 元 回归 方法 填补 缺失 值 


LDA 建 模 


借助 第 三 方 资源 的 特征 训练 集 和 测试 集 并 借助 第 三 方 资源 ,如 维基 百科 、 00 LH DUREE PI 
H DA — 73 St UR BJ E f 训练 集 和 测试 集 并 借助 第 三 方 资源 ， 如 维基 百科 、 "m "A Ses : 
扩展 方法 《 知 网 》、MEDLINE 数据 库 等 ec A 


LDA 建 模 


现代 图 书 情报 技术 


立 训练 集 的 特征 空间 , 利用 LDA 模 型 将 概率 大 于 某 一 
闵 值 的 隐 含 主题 对 应 的 高 频 词 扩 展 到 待 分 类 的 短文 
本 ， 以 降低 短文 本 的 稀 玻 性 影响 。Vo 等 外 将 LDA 建 模 
所 产生 的 隐 含 主题 中 的 一 部 分 分 配给 短文 本 ,将 这 
些 隐 含 主 题 中 的 词 扩展 进 短文 本 中 。 基 于 内 部 语义 
关联 的 特征 扩展 方法 的 关键 是 在 不 借助 外 部 第 三 方 
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Phan 等 5] 利用 LDA 概率 主题 模型 ， 通 过 维基 百科 、 
MEDLINE 医学 数据 库 等 第 三 方 资 源 及 其 所 反映 的 包 
括 专业 术语 在 内 的 词语 相关 概念 对 短文 本 进行 扩展 。 
基于 第 三 方 资源 的 特征 扩展 的 关键 是 寻找 合适 的 第 三 
方 资源 ， 从 中 获得 词语 之 间 相 似 程度 。 

此 外 , 在 内 部 特征 扩展 的 基础 上 , 结合 使 用 外 部 


资源 的 情况 下 如 何 挖掘 训练 集 与 待 分 类 短文 本 之 间 
隐 含 的 内 部 语义 关联 ， 其 中 以 共 现 为 核心 思想 的 关 
联 规则 实质 上 是 通过 两 个 词 的 共 现 来 关联 或 限定 语 
X, 与 LDA 模型 中 由 多 个 词 形成 的 一 个 隐 含 主题 来 
关联 或 限定 语义 在 目的 上 相同 , 但 后 者 关联 或 限定 
语义 的 程度 更 高 。 

基于 外 部 第 三 方 资 源 的 特征 扩展 是 借助 语义 词 
典 、 维 基 百 科 等 知识 库 或 者 互联 网 知识 等 第 三 方 资源 ， 
对 待 分 类 的 短文 本 进行 特征 扩展 。 宁 亚 盗 等 中 以 领域 
高 频 词 为 特征 词 , 借助 《 知 网 》 及 其 词语 之 间 的 语义 
相似 度 计算 方法 将 与 高 频 词 相似 度 较 高 的 词 也 扩展 成 
为 特征 ; 赵 辉 等 中 以 维基 百科 词语 相关 概念 集合 为 对 
B, 通过 计算 并 选取 与 语料库 中 特征 在 语义 上 高 度 相 
关 的 词 作为 特征 扩展 词 集 ， 对 短文 本 进行 特征 扩展 ; 


第 三 方 资源 也 可 以 有 效 开展 特征 扩展 。 王 盛 等 外 利用 
《 知 网 了》 确定 训练 集中 词语 对 的 上 下 位 关系 , 再 将 其 用 
于 扩展 待 分 类 文本 的 特征 词 , 实验 证 明 上 下 位 关系 能 
够 改善 短文 本 的 分 类 性 能 。Fan 等 中 运用 《 知 网 》 中 的 
语义 树 挖掘 语料库 内 的 施 事 - 受 事 (Agent-Patienb 关 系 ， 
从 而 提取 词语 对 进行 短文 本 的 特征 扩展 。 

(2) 特征 语义 转换 

特征 语义 转换 的 目的 是 使 训练 集 与 测试 集 之 间 形 
成 更 多 的 共同 特征 空间 。 为 实现 这 个 目的 , YEA TAN 
能 领域 开展 了 路 领域 分 类 的 研究 , 在 信息 管理 领域 ， 
通过 使 用 本 体 自 建 知 识 库 等 方式 也 开展 了 类 似 研究 。 
各 种 代表 性 共同 特征 空间 的 类 型 、 产 生 方式 、 特 点 、 
映射 方式 以 及 该 种 类 型 下 目前 使 用 的 主要 技术 等 如 表 
3 所 示 : 


表 3 各 种 共同 特征 空间 


共同 特征 共同 特征 空间 的 建立 方式 映射 的 
空间 的 主要 技术 
种 类 途径 共同 特征 空间 的 特点 方式 
利用 训练 集 和 测试 集 的 各 自 特有 特征 、 共 有 特征 及 其 语义 EE 
关联 新 建 一 个 特征 空间 作为 共同 特征 空间 Testi 
cm 2d 对 训练 集 和 测试 集 的 特征 首先 进行 扩展 ,利用 扩展 后 的 特 聚 类 技术 (协同 聚 类 )、 
征 及 其 语义 关联 新 建 一 个 特征 空间 作为 共同 特征 空间 o, TEAR 
委 建 基于 本 体 的 知识 并 将 其 4 概念 及 其 概念 空间 看 训练 集 和 测试 集 . 
m Re NOM 中 的 概念 及 其 概念 空间 看 LUI MAROHI 
上 接 将 维基 百科 等 公开 知识 库 中 的 概念 及 其 概念 空间 看 作 DULL RIRETESEMI 
EID An 进行 文本 表示 LDA 建 模 
寻找 并 直接 使 用 是 共同 特征 空间 
合适 的 外 部 共同 直接 将 SUMO 等 公开 的 本 体 知识 库 中 的 概念 及 其 概念 空间 
特征 空间 看 作 是 共同 特征 空间 概念 相似 度 计算 
公开 本 体 知识 库 并 辅 以 WordNet 等 其 他 资源 


将 测试 集 的 特征 
利用 隐 含 主题 或 借助 第 三 方 资源 将 测试 集 的 特征 转换 为 训 转换 、 映 射 到 共 
练 集 上 的 特征 同 特征 空间 进行 

文本 表示 
提出 直接 在 训练 集 和 测试 集 之 间 进 行 特 征 映射 的 谱 特 
征 对 齐 (Spectral Feature Alignment, SFA) 算 法 。 该 算法 
核心 思想 是 从 两 个 集合 之 间 找 到 一 些 共有 的 特征 ( 称 
为 领域 无 关 特征 ), 利用 这 些 领 域 无 关 特 征 将 两 个 集合 


将 训练 集 的 特征 
空间 作为 共同 特 
征 空间 


内 部 共同 


特征 空间 


PLSA、LDA 建 模 、 
概念 相似 度 计算 


大 多 数 研究 试图 建立 或 直接 使 用 一 个 语料库 之 外 
的 外 部 共同 特征 空间 、 供 训练 集 和 测试 集 同 时 映射 至 
此 空间 下 , 表示 文本 及 实施 分 类 。 

在 建立 外 部 共同 特征 空间 的 相关 研究 中 ,Pan 等 中 
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中 各 自 特 有 的 特征 ( 称 为 领域 相关 特征 ) 映 射 起 来 。 SFA 
通过 对 领域 无 关 特 征 以 及 领域 独 有 特征 之 间 的 共 现 性 
进行 跨 领 域 联合 建 模 得 到 两 类 特征 的 共 现 和 矩阵， 然后 
对 该 共 现 和 矩阵 实施 谱 聚 类 的 聚 类 技术 , 使 相似 的 特征 
聚 为 一 组 , 形成 众多 组 的 谱 聚 类 特征 。SFA 将 训练 
和 测试 集 映射 到 由 这 多 组 聚 类 特征 定义 的 共同 特征 空 
间 中 ,从 而 使 得 传统 分 类 算法 可 以 直接 用 于 分 类 器 的 
学 习 和 预测 。 在 类 似 核心 思想 的 研究 中 ,Soundaryal" 
将 该 方法 应 用 于 对 分 别 属于 训练 集 和 测试 集 的 两 个 意 
思 相 反 的 领域 无 关 特征 进行 语义 关联 ; Wang 等 5 的 研 
究 特 点 在 于 , 在 从 训练 集 和 测试 集 之 间 寻 找 共 有 的 特 
fiEZ BU, 先 使 用 特征 扩展 方法 、 通 过 维基 百科 将 两 个 
集合 的 现 有 特征 加 以 扩大 ,另外 , 使 用 协同 聚 类 的 聚 
类 技术 构建 共同 特征 空间 ; Xie 等 请 则 是 利用 训练 集 
的 领域 相关 特征 以 及 训练 集 与 测试 集 之 间 的 领域 无 关 
特征 , 使 用 多 元 回归 方法 填补 测试 集中 缺失 的 特征 ， 
对 测试 集 的 特征 加 以 扩展 , 得 到 两 个 集合 的 较 大 、 较 
高 维 的 共有 特征 空间 , 使 用 奇异 值 分 解 方法 将 此 高 维 
的 共有 特征 空间 映射 到 一 组 低 维 空间 ， 其 中 的 一 个 低 
维 空间 就 将 待 分 类 文本 与 相似 的 训练 集 文本 集合 在 一 
起 。 在 此 基础 上 ,使 用 相似 度 加 权 计 算 的 传统 分 类 器 
方法 决定 待 分 类 文本 的 所 属 类 别 。 在 信息 管理 领域 ， 
建立 外 部 共同 特征 空间 则 不 是 使 用 语料库 ， 而 是 将 
《中 图 法 》 学 科 分 类 体系 或 《农业 科学 叙 词 表 》 主 题 
体系 分 别 与 本 体 相 结合 , 构建 综合 性 或 专业 性 学 科 领 
域 本 体 知识 库 呈 作为 共同 特征 空间 ,将 训练 集 和 测 
试 集 的 特征 同时 转换 、 映 射 到 该 共同 特征 空间 , 构建 
基于 该 本 体 知识 库 中 的 概念 为 维度 的 文本 表示 模型 下 
的 分 类 器 。 

在 寻找 并 直接 使 用 外 部 共同 特征 空间 的 相关 研究 
中 ，Xiang 等 [4 将 维基 百科 概念 页 面 的 文本 集合 进行 
LDA fi, 得 到 词 - 隐 含 主题 矩阵 构成 的 外 部 共有 特 
征 空间 ,利用 该 矩阵 将 训练 集 和 测试 集 的 特征 都 转 
换 、 映 射 至 隐 仿 主题, 使 训练 集 和 测试 集 可 以 利用 隐 
含 主题 向 量 计 算 相 似 度 , 利用 SVM 分 类 算法 构建 分 
类 器。 在 信息 管理 领域 , 马 芳 5 ] 则 直接 使 用 SUMO 公 
开本 体 知识 库 作为 共同 特征 空间 , 采取 与 文献 [14-15] 
类 似 的 特征 转换 、 上 映射 以 及 分 类 过 程 ; 胡 泽 文 等 1 与 
马 芳 中 7 的 做 法 类 似 , 但 将 WordNet 同义词 集 与 SUMO 本 
体 概 念 相 结合 、 进 一 步 提 高 了 特征 语义 关联 的 可 能 性 。 


现代 图 书 情报 技术 
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也 有 一 部 分 研究 希望 仅 依 靠 语料库 内 部 提供 的 
数据 就 能 构建 训练 集 与 测试 集 之 间 的 内 部 共同 特征 
空间 。 

Xue 等 基于 概率 隐 售 语义 索引 (Probabilistic 
Latent Semantic Indexing，PLSD 提 出 将 训练 集 和 测试 
集 统一 到 一 个 概率 模型 中 来 ， 以 不 同 集合 的 共同 隐 含 
主题 为 桥梁 建立 训练 集 和 测试 集 间 的 关系 的 思想 ; 通 
过 将 两 个 集合 同时 分 解 到 相同 隐 含 主题 及 由 此 构建 的 
共有 特征 空间 上 ， 就 可 以 将 所 有 的 文本 表达 为 以 一 组 
相同 隐 含 主题 为 特征 的 特征 向 量 , 在 此 基础 上 , 使 用 
传统 的 分 类 算法 构建 分 类 器 。 在 信息 资源 管理 领域 ， 
李湘 东 等 乓 采用 与 Xue 等 由 类 似 的 思想 , 不 同 之 处 在 
于 使 用 更 容易 实现 的 LDA 模 型 , 并 应 用 于 多 种 文献 类 
型 的 文本 ; 刘 剑 亮 等 鼎 则 是 在 向 量 空间 模型 下 将 训练 
集 的 特征 空间 作为 内 部 共同 特征 空间 , 借助 《 知 网 》 
将 测试 集中 的 特征 转换 到 训练 集中 的 特征 , 构建 基于 
训练 集 的 特征 为 维度 的 文本 表示 模型 下 的 分 类 需 。 
2.2 关键 技术 

特征 语义 关联 以 及 特征 扩展 等 特征 语义 转换 相关 
人 研究 主要 涉及 以 下 关键 技术 : 

(1) 决定 领域 相关 特征 和 领域 无 关 特 征 的 相关 技 
术 。 比 较 简 单 的 方法 是 共 现 频次 ,即将 在 训练 集 和 测 
试 集中 同时 出 现 过 一 定 次 数 以 上 的 特征 作为 领域 相关 
特征 ,剩余 的 作为 领域 无 关 特 征 。 比 较 复 杂 的 是 借 》 
特征 选取 方法 ,例如 , 将 互信 息 方 法 改造 为 判断 一 个 
特征 与 文本 集合 是 否 相 关公 式 如 下 : 

D-5 F p(x,d) ) 


deD xeX',x«0 p(x)p(d) 


p(x, d)log, | (1) 


其 中 , D 是 训练 集 或 测试 集 文本 集合 ，I(Xi;D) 越 
小 , 则 特征 Xi 与 领域 越 无 关 ; 规定 一 个 阔 值 , 由 此 区 
分 领域 相关 特征 和 领域 无 关 特征 。 具 体 的 次 数 或 阔 值 
取决 于 实验 和 经 验 。Bollegala 等 多 发现, 规范 化 点 互 
信息 方法 (NPMD 能 较 好 地 判断 一 个 特征 x 与 文本 
oe 合 是 否 相 关 ， 公式 如 下 : 


score(x) = min(NPMI(x, S), NPMI(x, T)) E 
NPMI(x, y) -1 Pos) | : i 
(x y) og | p(x)p(y) -log(p(x.y)) i 


其 中 ,x 和 y 是 两 个 文本 集合 S 和 了 中 的 两 个 特征 ， 
依据 特征 积分 score0 的 高 低 分 别 为 训练 集 和 测试 集 选 


取 领 域 相 关 特 征 和 领域 无 关 特征 。 

(2) 将 相似 特征 聚 为 一 组 的 相关 技术 。 向 量 空间 
模型 下 开展 特征 语义 转换 研究， 主 要 是 解决 领域 无 关 
特征 和 领域 相关 特征 所 形成 的 高 维 词 - 词 共 现 矩阵 下 
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相似 度 的 最 大 值 , 并 提出 计算 公式 。 

利用 自 建 基于 本 体 的 知识 库 进行 概念 相似 度 计 
算 ， 比较 简单 的 是 直接 通过 分 散在 属性 或 实例 中 的 同 
义 词 或 近义词 完成 特征 词 与 本 体 概念 的 映射 ， 比 较 复 
杂 的 是 需要 进一步 考虑 特征 、 本 体 概念 、 本 体 属性 以 


相似 特征 发 现 的 问题 。 为 此 ， 聚 类 技术 和 和 矩阵 降 维 是 
KERR, MURK 、 协 同 聚 类 等 聚 类 技术 ， 以 及 和 矩 
阵 的 奇异 值 分 解 等 方法 -Ng 等 所 介绍 了 一 个 标准 的 谱 
聚 类 算法 , Dai 等 所 提出 了 被 广泛 引用 的 Cocc 协同 聚 
类 算法 。 

Q) 利用 知识 库 进行 词 或 概念 之 间 相 似 度 计算 方 
法 。 维 基 百 科 是 一 种 结构 化 的 语义 知识 库 , 概念 页 面 
既 包 含 了 对 概念 的 解释 内 容 , 也 包含 了 丰富 的 链接 距 
离 和 类 别 等 结构 信息 ， 如 何 利 用 这 两 种 结构 信息 是 基 
于 维基 百科 的 语义 相似 度 计算 的 关键 。WLM 算法 后 
是 目前 被 普遍 用 作 计 算 维基 百科 概念 间 链 接 距 离 的 方 
法 。 赵 辉 等 ”提出 基于 最 短路 径 值 作为 两 个 维基 百科 
概念 之 间 的 类 别 距 离 计算 公式 , 并 综合 链接 距离 和 类 
别 距 离 提出 计算 两 个 维基 百科 概念 之 间 语 义 距离 ， 即 
语义 相似 度 的 计算 方法 。 

在 《 知 网 》 知 识 库 中 , 词语 由 义 项 表示 ， 即 一 个 词 
语 可 以 表示 为 多 个 义 项 ,而 一 个 义 项 又 由 义 原来 表 
示 。 因 此 ,两 个 词语 之 间 的 相似 度 可 以 转化 为 义 原 间 
的 相似 度 计算 。 为 此 , 吴 健 等 "提出 综合 考虑 义 原 之 
间 的 最 短路 径 距 离 及 义 原 层次 深度 的 义 原 相似 度 计算 
方法 , 刘 群 等 ”提出 将 义 项 的 相似 度 计算 转化 为 义 原 
间 的 相似 度 计算 方法 , 孙 建 旺 等 "采用 最 大 匹配 的 方 
法 ,将 两 个 词语 之 间 的 相似 度 定义 为 各 个 义 项 组 合 中 


及 训练 集 文本 之 间 的 共 现 关系 ,公式 如 下 : 
tf(t,c)x N, (tc) x Np(t,c) 
Mtf (te) x N, (t, xN, (t, c)? 

其 中 ，W(bc) 表示 词 向 量 空间 中 词语 t 与 本 体 概 
念 c 的 相似 度 ，tf(t,c) 表示 词语 t 与 本 体 概念 c 在 特征 
集合 中 共 现 的 频次 ，N, (tc) 表示 词语 t 与 本 体 概念 c 
共 现 的 文本 数 ，N1(t,c) 表示 词语 t 与 本 体 概念 c 共 现 
的 概念 实例 数 , 分 母 为 归 一 化 因子 。 

(4) 使 用 概率 主题 模型 代替 向 量 空间 模型 ， 从 文 
本 表示 模型 的 层次 或 环节 解决 特征 之 间 的 语义 问题 。 
LDA 是 目前 最 具 代 表 性 且 被 广泛 使 用 的 概率 主题 模 
型 。 构建 LDA 模型 的 关键 是 隐 仿 变量 分 布 的 推断 ， 即 
获得 目标 文本 的 隐 含 主题 分 布 6 和 特征 - 隐 含 主题 分 布 
中 ,以 构建 隐 含 主题 -文本 和 抢 阵 和 特征 - 隐 含 主题 矩阵 。 
计算 两 个 分 布 通常 使 用 Griffiths 等 51 提出 的 Gibbs 抽 
样 方法 对 相关 参数 进行 推断 , 但 张 志 飞 等 所 简明 易 懂 
地 描述 了 后 验 估计 值 的 计算 公式 , 孙 世 杰 等 站 较 好 地 
解释 了 LDA 模型 中 使 用 困惑 度 计 算 主题 数 的 方法 。 
2.3” 现 有 成 果 的 水 平 及 今后 的 发 展 方向 

从 文本 表示 模型 《 知 网 》 等 公开 知识 库 以 及 基于 
本 体 自 建 知识 库 三 个 方面 概括 现 有 成 果 的 水 平和 今后 
的 发 展 方向 ， 如 表 4 所 示 : 


W(t,c)= (4) 


表 4 现 有 成 果 的 水 平和 今后 的 发 展 方向 
现 有 成 果 现 有 成 果 的 水 平 发 展 方向 
这 林 来 半日 前 的 大 多 数 研究 仍然 使 用 向 量 空间 模型， 使 用 LDA 等 进一步 普及 使 用 [DA 等 概率 主题 模型 ,将 VSM BUD 
dus ^ 概率 主题 模型 的 研究 、 从 文本 表示 环 季 解决 特征 请 义 关联 的 细 粒 度 特征 与 LDA 模型 的 相交 度 特征 相 结合 来 表示 
型 ”问题 的 研究 尚未 普及 ; 已 用 于 特征 语义 转换 及 特征 扩展 。 XK. 
司 义 词 、 近 义 词 L 下 位 关系 等 概念 儿 度 计算 方面 、 MESES "TT E 
Cup), gg EDU. EMARE PARRER MEAS ie v e je e ac lr v de n pc 48e J1,. ST DUE BRA GR 
D» S CopHpuuERm, 但 政 义 词 的 计算 沿 太 多 见 ; 使 用 单个 知识 2 AEE BOCEIRS CR SEU, m ATE 
基 百 科 等 公 已 有 歧义 词 的 计算 尚 不 多 见 ; 使 用 单个 知识 。 扩展 到 更 正确 的 特征 ; 多 个 公开 知识 库 在 特征 语义 转换 
ru M, Ber IBERIA, IER MUN. — AE IR 
入 “已 用 于 特征 语义 转换 及 特征 扩展 。 cis E REPE 


po 度 计算 比较 粗略 ; 自 建 本 体 的 知识 库 目前 仅 用 于 特征 语义 


转换 。 


相 较 于 公开 知识 库 , 基于 本 体 自 建 知识 库 的 中 文 概念 相似 


关注 本 体 构建 自动 化 等 相关 研究 领域 的 成 果 , 应 用 相关 
成 果 构 建 基 于 《中 图 法 》 等 学 科 分 类 体系 的 本 体 知识 库 ; 
构建 这 种 知识 库 并 将 其 用 于 基于 机 器 学 习 方 法 的 自动 分 
类 , 是 信息 资源 领域 开展 书目 信息 自动 分 类 研究 的 一 个 
重要 方向 ; 与 公开 知识 库 结合 使 用 , 改进 中 文 的 概念 或 词 
之 间 相 似 度 计算 ; 可 以 考虑 将 其 用 于 特征 扩展 ,特别 是 与 
学 科 专 业 领 域 有 关 的 书目 信息 的 标题 甚至 摘要 的 扩展 。 
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3.1 主要 研究 

在 向 量 空间 模型 下 ,经 过 互信 息 、 卡 方 或 信息 增 
益 等 特征 选择 方法 选取 的 特征 能 够 有 效 提高 分 类 性 
能 。 但 是 无 论 哪 一 种 特征 选择 方法 , 都 是 以 文本 或 文 
本 集合 为 单位 选取 特征 , 没有 进一步 细 化 考虑 结构 化 
文本 中 在 标题 、 摘 要 、 作 者 关键 词 等 不 同位 置 出 现 的 
词 对 分 类 的 作用 会 有 所 不 同等 问题 。 在 LDA 模 型 下 ， 
Bischof 等 5 针对 隐 含 主题 下 哪些 词 更 能 代表 该 主题 
开展 研究 并 给 出 排序 ,说 明 不 同 的 词 对 表达 隐 含 主题 
的 作用 有 所 不 同 , 因此 , 不 同 的 词 通过 隐 含 主题 对 分 
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间 集 中 度 、 类 内 分 散 度 等 考虑 在 各 个 类 别 间 的 分 布 情 
况 赋予 权重 的 加 权 策 略 。 
3.2 ”关键 技术 
加 权 策 略 研究 主要 涉及 对 TF-IDF 公式 的 重复 利 
用 或 改造 、Gibbs 抽样 公式 的 改造 等 关键 技术 。 
针对 向 量 空间 模型 下 利用 文本 体例 结构 进行 加 权 
时 , 书目 信息 中 所 包含 的 题名 、 作 者 关键 词 以 及 摘要 
等 三 项 内 容 , 分 别 形成 三 个 语料库 ,在 各 自 语 料 库 内 
计算 每 一 个 特征 词 的 权重 , 其 利用 的 都 是 经 典 的 
TF-IDF 作为 权重 计算 方法 ,公式 如 下 : 


WT(wi) = TF(w;) x IDF(w;) =tf; x zi < | (5) 


其 中 ，TF(w;) 表示 特征 wi 在 文档 j 中 出 现 的 次 
数 , 用 tf; 计算 ; IDF(wi) 表示 特征 wi 的 逆 文 档 频率 ， 


Pie 


的 文档 数 ，a 为 调节 因子 。 

因此 , 书目 信息 中 的 一 个 特征 可 能 最 多 在 上 述 三 
个 语料库 中 重复 利用 公式 (5) 分 别 计算 出 三 个 权 值 ， 这 
三 个 权 值 在 将 包含 有 题名 、 作 者 关键 词 以 及 摘要 的 书 


n 


上 n soit nosti x 


ni 十 Q 


一 类 的 作用 也 需要 区 别 对 待 。 为 此 , 在 两 种 模型 下 分 类 
K- 时 ,都 开展 了 加 权 策 略 研究 。 

er 目前 的 加 权 策 略 主要 有 利用 文本 体例 结构 进行 加 
E 权 或 者 利用 特征 项 分 布 特性 进行 加 权 。 各 种 代表 性 加 
c 权 方 式 、 文 本 表示 模型 及 其 该 模型 的 基本 技术 、 该 种 
加 权 方 式 下 使 用 的 主要 技术 等 如 表 5 所 示 : 

N 表 5 加 权 策 略 的 主要 方式 及 相关 技术 

m 、 文本 表示 

c 加 权 方式 Cay ”基本 技术 主要 技术 

N 文本 体 VSM — TFJDF 同一 个 词 在 结构 化 文本 中 
~ 例 结构 ^ LDA ”Gibbs 抽样 的 不 同位 置 ,赋予 不 同 权重 
x dra VSM TFJIDF e MOST 
© 分 布 特性 PET T 

e LDA Gibbs 抽样 尚 无 研究 成 果 

c (1) 利用 文本 体例 结构 进行 加 权 的 方法 认为 ， 针 
Q 对 新 闻 、 书 目 信息 等 特定 类 型 的 语 料 ， 处 于 标题 、 摘 


要 、 作 者 关键 词 或 正文 等 不 同位 置 的 特征 词 对 文章 具 
有 不 同 的 贡献 度 ， 因 此 , 需要 根据 位 置信 息 赋予 特征 
词 不 同 权 值 。 王 吴 等 中 选取 期 刊 题 录 信 息 作 为 实验 材 
料 , 在 向 量 空间 模型 下 ,为 处 于 标题 .摘要 和 关键 词 等 
不 同位 置 的 特征 词 设置 不 同 权 值 , 实验 结果 表明 考虑 
了 特征 来 源 的 方法 具有 更 好 的 分 类 效果 。 李 湘 东 等 9 
将 基于 文本 体例 结构 的 加 权 策 略 运 用 于 书目 信息 的 文 
本 分 类 , 在 点 互信 息 的 基础 上 , 结合 词性 .位 置 等 要 素 
修正 特征 词 的 权重 并 扩展 至 LDA 的 模型 中 。 

(2) 利用 特征 项 分 布 特性 进行 加 权 主 要 考虑 的 是 
特征 项 的 分 布 特性 。Lertantree 等 "通过 改进 TF-IDF 
模型 , 根据 在 类 别 中 单词 的 分 布 区 别 , 提出 多 种 不 同 
的 特征 词 权重 表示 方法 ; 蒋 健 中 在 此 基础 上 , 提出 类 
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目 信息 作为 一 个 完整 的 文本 形成 的 语料库 中 , 用 来 计 
算 该 特征 的 最 终 权 值 。 计 算 的 关键 是 如 何在 最 终 权 值 
中 按 比例 分 配 这 三 个 权 值 。 王 昊 等 65 根据 实验 结果 将 
特征 比例 确定 为 3:5:2, 即将 上 述 三 个 权 值 分 别 乘 以 系 
数 0.3、0.5 和 0.2 后 相 加 。 

针对 LDA 模型 下 利用 文本 体例 结构 进行 加 权时 ， 
在 Griffiths 等 6 提出 的 Gibbs 抽样 公式 的 基础 上 , 可 
以 利用 特征 词 与 文本 的 点 互信 息 PMICO 对 其 公式 进行 
修正 如 下 : 


p(z; - k|z ;, w,o, B) oc p(z; - k. wj 2 t| z_i, w. ;, 0.) 


—i» "3i? 


weight(t,d)nf? ; +B 
V ; WACK F 
(weight(t dnf +B) $7, ,(weight(t,d)nf? +a) 


weight(t,d)nQ? ; tO 


3 
weight(t = w;,d) = PMI(w;,d) = $A-p;-PMI(w;); (7) 
j=! 


JEP, p 入 为 特征 词 权重 的 调节 因子 ，h; (=1， 
2，3) 为 特征 词 的 位 置 权重 , El E AIT u > p s. 


3 
> hj =1。 考 虑 特征 词 的 位 置 因 素 进行 权重 调整 , 使 
j=l 


得 处 于 文本 不 同位 置 的 特征 词 在 文本 表示 能 力 上 的 差 
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异 得 以 体现 , 也 提高 了 PMI 模型 的 特征 选择 效率 。 另 
外 , 实 词 相对 于 虚词 对 文本 具有 更 强 的 描述 能 力 ， 因 
此 文本 中 的 特征 词 若 为 实 词 时 , 设 定 和 =1; 若 为 虚词 
时 , 设 定 和 =0.7， 以 区 分 不 同 词性 特征 词 对 文本 表示 能 
力 上 的 差异 。 

针对 向 量 空 间 模型 下 利用 特征 项 分 布 特性 进行 加 
权时 , 蒋 健 5 提出 改进 的 TF-IDF 计算 公式 如 下 : 


WTrr.ipr-cp, (w) =TEF(wi)xIDF(wi)xmaxi-l{CD(Ci,w)DD(Ci,w)} 


(8) 

CD(C,w)- RHOD (9) 
i=l df; (w) 

DDC T (10) 


HP, dfi (w) 表示 特征 w 在 Ci 类 内 出 现 的 文档 频 
WS, Y. df (w) 表示 特征 w 在 所 有 类 内 出 现 的 总 文档 
7k, |c;| 表示 文档 集中 Ci 类 的 总 文档 数 。 公 式 (9) 表 示 
特征 w 对 于 类 Ci 的 集中 度 , 知 其 值 越 大 表示 该 特征 越 
集中 地 出 现在 该 类 中 ; 公式 (10) 表 示 特 征 w 对 于 类 C; 
的 分 散 度 , 若 其 值 越 大 表示 该 特征 在 Ci 中 分 布 得 越 均 
匀 。maxi_1 {CD(C;, w)DD(C;, w)} X78 TF-IDF-CD nax 
方法 所 有 的 CD 值 中 , 取 特 征 w 在 各 个 类 的 CD 值 中 
最 大 的 一 个 。 

3.3” 现 有 成 果 的 水 平 及 今后 的 发 展 方向 

不 管 是 利用 文本 体例 结构 进行 加 权 还 是 利用 特 
征 项 分 布 特性 进行 加 权 , 加权 策 略 主要 是 对 VSM 、 
LDA 模 型 中 的 基本 公式 进行 改造 。 改 造 的 主要 途径 
包括 : 特征 的 位 置 、 词 性 ， 特 征 与 文本 、 特 征 与 类 别 
的 相关 关系 , 改造 的 主要 方式 是 将 改造 途径 中 所 反 
映 的 特征 重要 程度 以 系数 的 形式 加 入 到 模型 的 基本 
公式 中 。 

Hj, 运用 于 文本 分 类 的 加 权 策略 研究 大 多 基于 
向 量 空间 模型 ,而且 一 般 只 考虑 利用 文本 体例 结构 进 
行 加 权 和 利用 特征 项 分 布 特性 进行 加 权 等 两 种 方式 中 
的 某 一 种 加 权 策 略 , 结合 两 种 加 权 策 略 的 研究 是 一 个 
重要 的 努力 方向 。 

在 LDA 模 型 下 已 经 开始 有 利用 文本 体例 结构 进 
行 加 权 的 研究 , 但 数量 不 多 ,有待 加 强 ; 在 LDA 模 型 下 
利用 特征 项 分 布 特性 进行 加 权 则 是 一 个 有 等 开拓 研 
究 方 向 。 
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4 结 语 


本 文 在 特征 语义 转换 和 特征 扩展 等 特征 语义 关联 
方面 ,或 者 在 加 权 策 略 方面 对 文本 自动 分 类 进行 了 比 
较 深 入 和 细致 的 研究 , 提出 了 属于 特征 选择 方法 研究 
范围 之 外 , 但 影响 书目 信息 、 新 兴 媒 体 等 文本 的 分 类 
性 能 的 相关 问题 和 有 效 的 解决 办 法 。 由 于 使 用 的 语 料 
库 、 结 果 的 评价 方式 各 不 相同 , 难以 对 这 些 研 究 进 行 
横向 比较 。 但 是 , 这 些 研 究 在 各 自 人 研究 的 范围 内 , 均 与 
改进 前 的 方法 在 分 类 结果 上 做 出 比较 , 验证 了 其 在 分 
类 性 能 上 的 改进 或 提高 程度 , 说 明了 这 些 研究 对 文本 
自动 分 类 研究 的 有 效 性 及 其 贡献 。 针 对 现 有 人 研究 中 概 
率 主题 模型 使 用 不 多 、 基 于 本 体 和 学 科 分 类 体系 自 建 
知识 库 的 自动 化 构建 及 概念 相似 度 计 算 方法 不 足 、 加 
权 策略 单一 等 问题 , 今后 的 研究 可 以 从 向 量 空 间 模型 
与 概率 主题 模型 结合 使 用 、 利 用 各 种 知识 库 提 高 概念 
相似 度 计算 能 力 、 结 合 多 种 加 权 策 略 构建 复合 加 权 策 
略 等 方向 展开 。 
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XIANDAI TUSHU QINGBAO JISHU WA 


Review of Digital Documents Automatic Classification Research 


Li Xiangdong"^ Ba Zhichao"? Gao Fan! 
(School of Information Management, Wuhan University, Wuhan 430072, China) 
"(Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China) 
"(Information Research Institute of Shandong Academy of Sciences Ji^nan 250014, China) 


Abstract: [Objective] This paper discusses the existing issues and possible solutions to the automatic classification of 
digital documents (i.e. library bibliographies, news pages and social media posts). [Coverage] We reviewed literature 
on the feature semantics conversion, feature expansion and weighting strategy from the field of Automatic 
Classification based on machine learning. [Methods] We analyzed the leading studies, key technologies, current 
achievements, and future directions from the published articles. [Results] Our research found the limits of previous 
studies on semantic representation of texts and utilization of knowledge bases. [Limitations| We did not discuss the 
classification algorithms. [Conclusions] To improve the effectiveness of automatic classification of digital documents, 
future research could try to combine Vector Space Model with Probabilistic Topic Model, use the knowledge base to 
improve the concept similarity computing, as well as construct composite weighted strategy. 

Keywords: Automatic classification Feature semantic association Feature semantic conversion Feature expansion 
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EBSCO 有 声 读物 的 新 功能 为 图 书馆 带 来 更 好 的 用 户 体验 


EBSCO 信息 服务 改进 了 其 有 声 读物 的 用 户 体验 , 添加 了 新 设计 和 新 功能 ,为 图 书馆 读者 提供 了 更 好 的 聆听 体验 。 此 外 , 
EBSCO 有 声 读物 还 提供 了 一 个 新 的 APP, 为 用 户 提 供 更 多 的 读物 选择 、 改 进 的 交付 系统 ， 以 及 一 个 新 的 、 易 于 使 用 的 设 
DE 

通过 和 全 球 数字 内 容 交 付 领 头羊 Findaway 的 合作 , EBSCO 有 声 读物 提供 了 从 移动 设备 直接 访问 有 声 读物 的 功能 。 凭 借 
简化 的 工作 流 和 一 个 有 趣 的 、 直 观 的 设计 , EBSCO 有 声 读物 快速 简易 的 搜索 功能 ,配合 其 新 的 APP 使 得 在 线 聆听 变 得 更 加 
容易 。APP 人 允许 图 书馆 用 户 从 他 们 的 图 书馆 馆藏 中 直接 下 载 有 声 读 物 到 他 们 的 设备 上 并 开始 试听 。 和 Findaway 的 合作 还 将 
EBSCO 有 声 读物 的 范围 扩大 至 50 000 多 个 条 目 , 这 将 吸引 广大 的 图 书馆 读者 , 包括 休闲 读者 、 研 究 人 员 、 语 言 学 习 者 、 中 
小 学 生 、 视 障 读者 和 极 客 。EBSCO 的 馆藏 建设 者 和 馆 员 们 为 学 术 界 、 公 共 图 书馆 、 中 小 学 校 和 企业 图 书馆 创建 了 几 个 新 的 
有 声 读物 资源 库 , 包括 获奖 读物 库 、 流 行 小 说 库 和 畅销 书库 。 

通过 EBSCO 新 的 简易 采购 模型 来 采购 一 本 EBSCO 有 声 读物 是 非常 简单 的 。 所 有 的 有 声 读物 都 可 以 在 EBSCOhost 馆藏 
管理 平台 上 通过 单 用 户 永久 访问 模型 进行 购买 。EBSCO 有 声 读 物 的 身份 验证 方法 包括 个 人 用 户 身份 验证 和 SSO 身份 验证 ， 
从 而 提供 对 有 声 读物 的 安全 访问 。 


(编译 自 : https://www.ebsco.com/news-center/press-releases/ebsco-audiobooks-new-design-and-features-create-an-enhanced- 


user-experience) 


(本 刊 讯 ) 
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